2.2 基于CRE重复抽样的Neyman推断

1 有限总体的统计量

考虑一个 CRE, 包含 $n$ 个实验单元; $n_{1}$ 个接受实验, $n_{0}$ 个作为对照. 定义潜在输出 $Y_{i} (1), Y_{i} (0)$ 和个体的因果效应 $τ_{i} = Y_{i} (1) - Y_{i} (0)$ . 则潜在输出有有限的总体均值 $\overset{―}{Y} (1) = \frac{1}{n} \sum_{i = 1}^{n} Y_{i} (1), \overset{―}{Y} (0) = \frac{1}{n} \sum_{i = 1}^{n} Y_{i} (0),$ 以及总体方差^[1] $S^{2} (1) = \frac{1}{n - 1} \sum_{i = 1}^{n} {Y_{i} (1) - \overset{―}{Y} (1)}^{2}, S^{2} (0) = \frac{1}{n - 1} \sum_{i = 1}^{n} {Y_{i} (0) - \overset{―}{Y} (0)}^{2},$
还有协方差 $S (1, 0) = \frac{1}{n - 1} \sum_{i = 1}^{n} {Y_{i} (1) - \overset{―}{Y} (1)} {Y_{i} (0) - \overset{―}{Y} (0)} .$
因果效应有均值 $τ = \frac{1}{n} \sum_{i = 1}^{n} τ_{i} = \overset{―}{Y} (1) - \overset{―}{Y} (0)$ 和方差 $S^{2} (τ) = \frac{1}{n - 1} \sum_{i = 1}^{n} (τ_{i} - τ)^{2} .$

引理

$2 S (1, 0) = S^{2} (1) + S^{2} (0) - S^{2} (τ) .$

2 Neyman 定理

回忆上一篇笔记, 我们定义样本均值 $\hat{\overset{―}{Y}} (1) = \frac{1}{n_{1}} \sum_{i = 1}^{n} Z_{i} Y_{i}, \hat{\overset{―}{Y}} (0) = \frac{1}{n_{0}} \sum_{i = 1}^{n} (1 - Z_{i}) Y_{i}$ 和样本方差 $\begin{aligned} {\hat{S}}^{2} (1) & = \frac{1}{n_{1} - 1} \sum_{i = 1}^{n} Z_{i} {Y_{i} - \hat{\overset{―}{Y}} (1)}^{2}, \\ {\hat{S}}^{2} (0) & = \frac{1}{n_{0} - 1} \sum_{i = 1}^{n} (1 - Z_{i}) {Y_{i} - \hat{\overset{―}{Y}} (0)}^{2} . \end{aligned}$
但是 $S (1, 0)$ , $S^{2} (τ)$ 没有样本版本, 因为同一个 $i$ 我们没法同时观测到 $Y_{i} (1)$ 和 $Y_{i} (0)$ .

下面的定理给出了我们的因果效应的均值 $\hat{τ}$ 的性质.

定理 (Neyman)

在 CRE 下

$\hat{τ} = \hat{\overset{―}{Y}} (1) - \hat{\overset{―}{Y}} (0)$ 关于 $τ$ 无偏, 也即 $E (\hat{τ}) = τ$ .
$\hat{τ}$ 有方差 $\begin{aligned} (2.1) & Var (\hat{τ}) & = \frac{S^{2} (1)}{n_{1}} + \frac{S^{2} (0)}{n_{0}} - \frac{S^{2} (τ)}{n} \\ (2.2) & = \frac{n_{0}}{n_{1} n} S^{2} (1) + \frac{n_{1}}{n_{0} n} S^{2} (0) + \frac{2}{n} S (1, 0) . \end{aligned}$
方差估计量 $\hat{V} = \frac{{\hat{S}}^{2} (1)}{n_{1}} + \frac{{\hat{S}}^{2} (0)}{n_{0}}$ 关于 $Var (\hat{τ})$ 保号, 也即 $E (\hat{V}) - Var (\hat{τ}) = \frac{S^{2} (τ)}{n} \geq 0,$ 等号成立当且仅当 $τ_{i} = τ$ , $\forall i$ .

在这里只有 $Z_{i}$ 是随机的, 而 $Y_{i} (1), Y_{i} (0)$ 都是固定的, 因此随机化只是从 $n$ 中选出 $n_{1}$ 个元素, 这总共有 $M = (\binom{n}{n_{1}})$ 种可能.

证明

首先, $\begin{aligned} E (\hat{τ}) & = E {\frac{1}{n_{1}} \sum_{i = 1}^{n} Z_{i} Y_{i} (1) - \frac{1}{n_{0}} \sum_{i = 1}^{n} (1 - Z_{i}) Y_{i} (0)} \\ = \frac{1}{n_{1}} \sum_{i = 1}^{n} \frac{n_{1}}{n} Y_{i} (1) - \frac{1}{n_{0}} \sum_{i = 1}^{n} \frac{n_{0}}{n} Y_{i} (0) = τ . \end{aligned}$
其次, 我们把 $\hat{τ}$ 改写成 $\hat{τ} = \sum_{i = 1}^{n} Z_{i} {\frac{Y_{i} (1)}{n_{1}} + \frac{Y_{i} (0)}{n_{0}}} - \frac{1}{n_{0}} \sum_{i = 1}^{n} Y_{i} (0)$ (也即把 $Z_{i}$ 整理到一起), 则再一次依据这里的结论, $\begin{aligned} Var (\hat{τ}) = & \frac{n_{1} n_{0}}{n (n - 1)} \sum_{i = 1}^{n} {\frac{Y_{i} (1)}{n_{1}} + \frac{Y_{i} (0)}{n_{0}} - \frac{\overset{―}{Y} (1)}{n_{1}} - \frac{\overset{―}{Y} (0)}{n_{0}}}^{2} \\ = & \frac{n_{1} n_{0}}{n (n - 1)} [\frac{1}{n_{1}^{2}} \sum_{i = 1}^{n} {Y_{i} (1) - \overset{―}{Y} (1)}^{2} + \frac{1}{n_{0}^{2}} \sum_{i = 1}^{n} {Y_{i} (0) - \overset{―}{Y} (0)}^{2} \\ + \frac{2}{n_{1} n_{0}} \sum_{i = 1}^{n} {Y_{i} (1) - \overset{―}{Y} (1)} {Y_{i} (0) - \overset{―}{Y} (0)}] \\ = & \frac{n_{0}}{n_{1} n} S^{2} (1) + \frac{n_{1}}{n_{0} n} S^{2} (0) + \frac{2}{n} S (1, 0) . \end{aligned}$
结合引理, 可以得到 $Var (\hat{τ}) = \frac{S^{2} (1)}{n_{1}} + \frac{S^{2} (0)}{n_{0}} - \frac{S^{2} (τ)}{n}$ .
最后, 还是用上面那个结论, 得到 $E [{\hat{S}}^{2} (1)] = S^{2} (1), E [{\hat{S}}^{2} (0)] = S^{2} (0),$ 因此 $\hat{V}$ 的前两项是无偏的.

回顾 FRT, 我们来对比两者的不同点

FRT 可以用于任何检验量, 而 Neyman 定理只关于 $\hat{τ}$
在下图中, 我们给出所有 $M$ 种不同的实验组分配方式 $z_{1}, \dots, z^{M}$ , (回顾 $M = (\binom{n}{n_{1}})$ ). 每一种我们得到输出结果向量 $Y (z^{m})$ . 在 FRT 的示意图中, 我们观测到的 $Y$ 是固定的, 但在这里随着 $z^{m}$ 改变, $Y (z^{m})$ 会改变.

Pasted image 20251005214912.png

FRT 示意图的 $T (z^{m}, Y)$ 可以基于观测值计算, 但是这里的 ${\hat{τ}}^{m}$ 只是假设的值, 因为我们只能知道两个 $Y (1), Y (0)$ 中的一个.

我们下面来观察一下 (2.1). $S^{2} (τ)$ 的系数为负, 这说明当 $τ$ 的方差越大, $\hat{τ}$ 的方差反而越小. 我们基于 (2.2) 给出一个直观的解释. 分别考虑 $S (1, 0) > 0$ 和 $S (1, 0) < 0$ . 我们假设观测到相对较大的实验组的潜在输出.

如果 $S (1, 0) > 0$ , 说明实验组的样本也有较大的潜在对照输出, 这样对照组样本的观测值就会变小, 因此 $\hat{τ}$ 变大;
如果 $S (1, 0) < 0$ , 说明实验组的样本有较小的潜在对照输出, 这样对照组样本的观测值就会变大, 因此 $\hat{τ}$ 变小.

总的来说, 尽管 $\hat{τ}$ 的无偏性不依赖于 $S (1, 0)$ , 我们依然在 $S (1, 0) > 0$ 时更有可能观测到更极端的 $\hat{τ}$ .

关于 $\hat{τ}$ 我们有进一步的渐近性质.

定理 (证明略)

令 $n, n_{1} \to \infty$ . 如果 $\frac{n_{1}}{n}$ 的极限在 $(0, 1)$ 上, 且 ${S^{2} (1), S^{2} (0), S (1, 0)}$ 有极限, 且 $max_{1 \leq i \leq n} \frac{{Y_{i} (1) - \overset{―}{Y} (1)}^{2}}{n} \to 0, max_{1 \leq i \leq n} \frac{{Y_{i} (0) - \overset{―}{Y} (0)}^{2}}{n} \to 0$ , 则 $\frac{\hat{τ} - τ}{\sqrt{Var (\hat{τ})}} \overset{d}{\to} N (0, 1),$ 且 ${\hat{S}}^{2} (1) \overset{p}{\to} S^{2} (1), {\hat{S}}^{2} (0) \overset{p}{\to} S^{2} (0) .$

3 CRE 的回归分析

实际中我们会用基于回归的推断方法来得到 $τ$ . 我们可以运行 OLS: $(\hat{α}, \hat{β}) = \arg min_{(a, b)} \sum_{i = 1}^{n} (Y_{i} - a - b Z_{i})^{2},$ 然后把 $\hat{β}$ 作为 $τ$ . 我们可以证明 $\hat{β} = \hat{τ}$ .
但是, 它的方差 $\begin{aligned} {\hat{V}}_{OLS} & = \frac{n (n_{1} - 1)}{(n - 2) n_{1} n_{0}} {\hat{S}}^{2} (1) + \frac{n (n_{0} - 1)}{(n - 2) n_{1} n_{0}} {\hat{S}}^{2} (0) \\ \approx \frac{{\hat{S}}^{2} (1)}{n_{0}} + \frac{{\hat{S}}^{2} (0)}{n_{1}}, \end{aligned}$ 即使用了近似也与 $\hat{V}$ 不同. 不过, EHW 的方差值相近: ${\hat{V}}_{EHW} = \frac{n_{1} - 1}{n_{1}^{2}} {\hat{S}}^{2} (1) + \frac{n_{0} - 1}{n_{0}^{2}} {\hat{S}}^{2} (0) \approx \frac{{\hat{S}}^{2} (1)}{n_{1}} + \frac{{\hat{S}}^{2} (0)}{n_{0}} .$

这里我们分母没有用 $n$ 是为了让定理看起来形式优雅, 没有本质区别. ↩︎